#evaluación de ia

BenchEvolver: Síntesis de Tareas Frontera por Evolución de Soluciones

BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.

2026-06-02 · 2 min

Benchmarks confiables y negociados para VLM en percepción urbana

Benchmarks de VLM en percepción urbana: confiabilidad y negociación. Estudio en Montreal muestra impacto de fiabilidad humana.

2026-06-02 · 2 min

CV-Arena: Benchmark abierto de visión computacional con preferencias humano-IA

Conoce CV-Arena: un benchmark abierto con 12K pares de imágenes para evaluar edición guiada por instrucciones, combinando preferencias humanas e IA.

2026-06-02 · 2 min

MCP-Persona: Benchmark para agentes LLM en apps personales

Nuevo benchmark MCP-Persona para evaluar agentes LLM en apps personales reales como Reddit y Slack. Simulación de entornos para mejorar su rendimiento.

2026-06-02 · 1 min

Marco de Red Teaming para Seguridad, Robustez y Equidad en Modelos Médicos de IA

Un marco de red teaming multidominio revela fallos críticos en seguridad y equidad de modelos médicos de IA, ocultos por métricas promedio.

2026-06-02 · 2 min

GraphARC: un benchmark completo para razonamiento abstracto con grafos

Descubre GraphARC, benchmark de razonamiento abstracto en grafos. Revelamos la brecha entre comprensión y ejecución en modelos de IA.

2026-06-01 · 1 min

Cuestionarios psicométricos humanos malinterpretan comportamiento de LLMs

Estudio revela: los cuestionarios psicométricos no reflejan el comportamiento real de los LLM. La generación de probabilidades es más precisa.

2026-06-01 · 2 min

Enfoque principal-agente para agregar benchmarks: bienestar, mejorabilidad, varianza

Optimiza benchmarks de IA con bienestar, mejorabilidad y varianza. Nuevo marco de auditoría. ¡Descúbrelo!

2026-06-01 · 1 min

FEM-Bench: benchmark científico para LLMs de código

Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.

2026-06-01 · 2 min